查看原文
其他

做数据分析不求人!借助ChatGPT的12种Python库,轻松搞定高质量图表制作,中文显示无压力

思辨view kate人不错
2024-07-24

引言

之前我写了2篇文章,介绍新升级后的ChatGPT数据分析功能。

不只是快,新版 ChatGPT 数据分析体验全记录,分享超实用 AI 提示词,助你轻松驾驭复杂数据分析

不用学Excel了,ChatGPT数据分析能力大升级

今天深入介绍一下如何用GPT更好地帮助我们做数据分析。

GPT用的数据分析主要是Python库,我问了下GPT,它现在有12种关于数据分析的Python库。

主要数据分析Python库介绍

数据操作与数值计算

  1. Pandas:用于数据操作和分析,特别适合处理数据框(DataFrame)。
  2. NumPy:用于数值计算,特别适合处理数组和矩阵操作。

基础数据可视化

  1. Matplotlib:用于创建静态、动画和交互式可视化图表。
  2. Seaborn:基于Matplotlib的统计数据可视化库,适用于绘制复杂的数据可视化图表。

交互式数据可视化

  1. Plotly:用于创建交互式图表和仪表板。
  2. Bokeh:用于创建交互式和可扩展的网络可视化图表。
  3. Altair:基于Vega和Vega-Lite的声明式可视化库,适用于创建复杂且交互性强的图表。

统计建模与机器学习

  1. Scikit-learn:用于机器学习和数据挖掘,提供各种分类、回归和聚类算法。
  2. Statsmodels:用于统计建模和计量经济学分析。

科学与工程计算

SciPy:用于科学和工程计算,提供许多高效的数值计算算法。

地理数据处理与可视化

Geopandas:用于地理数据的处理和绘图,扩展了Pandas的数据结构以支持地理信息系统(GIS)功能。

网络与图结构分析

NetworkX:用于创建、操作和研究复杂网络和图的结构、动态和功能。

实例分享

这里我使用的提示词是:


请用我上传的字体做出我所需要的图表,折线图,中文显示,提供HTML下载链接

图表中通常包含文字的主要部分:

  1. 标题
  2. 轴标题
  3. 图例
  4. 数据标签
  5. 轴刻度标签
  6. 图表说明或副标题
  7. 数据源
  8. 单位说明
  9. 注释

简单来说,我将得意黑字体otf文件、CSV表格和上述提示词发给了GPT。

默认生成的表格样式

强调1-9完整要素后的图表样式

不同库生成的图表对比

在GPT的代码运行处理里可以看到它用的是哪一个python库。

Matplotlib 示例

生成的x轴时间格式出错。

Plotly 示例

Seaborn 示例

同样,这里时间格式也出错,让GPT修改后效果如下:

Bokeh 示例

生成的HTML文件中标题的字体未正确显示为得意黑体。

安装其他Python库

使用其他Python库非常简便。

目前,GPT还存在一些小问题,例如系统提示未预装Plotly库。为此,我访问了https://pypi.org/,下载了该库,并指导GPT进行了安装。

解决中文显示问题的配置示例

为了确保生成的图表中的文字不出现乱码,即使不上传中文字体,也可以通过在指令中添加“请进行数据分析,创建{XXX}图,图中文本使用中文”来解决。

执行此命令后,我们可以在代码执行过程中观察到相关设置。

上述代码是配置Matplotlib以正确显示中文字符的常用方法。

  1. plt.rcParams['font.sans-serif'] = ['SimHei']

    这行代码的目的是设置图表中非衬线字体的默认选项。font.sans-serif是指定非衬线字体的参数,而['SimHei']是一个字体列表,这里使用的是“黑体”(SimHei),它是一种常用的中文黑体字。通过这样设置,Matplotlib会在绘制图表时,默认使用“黑体”来显示中文字符,从而避免中文显示为乱码。

  2. plt.rcParams['axes.unicode_minus'] = False

    此行代码用于处理在图表中显示负号的问题。在默认情况下,Matplotlib使用的是unicode字符来显示负号。然而,这种默认的负号在某些字体中可能显示为方块或者不显示。设置'axes.unicode_minus'False可以让Matplotlib使用普通的减号('-')代替unicode负号,这样可以确保即使在各种字体环境下,负号也能正确显示。

让GPT记住你喜欢的字体

如果你希望使用特定的字体而不想每次都上传,可以通过创建一个自定义的GPT配置来实现。

下面是我如何设置这种配置的分享:

数据可视化资源推荐

  1. Data Viz Project: 提供多种图表类型,并详细说明每种图表的适用场景和制作方法。它的一个显著特点是图表展示风格简约,并且直观地显示了哪种表格输入适合的对应图表。

    网站: datavizproject.com

  2. Highcharts: 商业图表库,提供多种可定制的图表类型。这个图表库的设计非常美观,且提供了多种类型的图表。

    网站: https://www.highcharts.com/demo

    此外,它还提供了demo图表的原始表格数据下载选项,方便用户下载并用于练习。

    我截图让GPT做出类似图表。

  3. Plotly: 支持Python、R和JavaScript的图表库,适合创建交互式图表。

    网站: https://plotly.com/python/

探索更多数据分析资源

要想更深入了解数据分析,那就需要找到优秀的数据集,这里推荐Kaggle数据集。

https://www.kaggle.com/datasets

Kaggle数据集是由Kaggle平台提供的公开数据资源,涵盖了广泛的领域和主题,供用户下载和使用。这些数据集可用于学习、研究、项目开发和参加竞赛。

数据集的来源

  • 公司和组织:许多企业和组织会提供他们的真实数据进行竞赛或共享。
  • 政府和公共机构:这些机构提供的开放数据集通常用于社会研究和公共政策分析。
  • 个人用户:Kaggle社区中的个人用户也可以上传和分享他们收集和整理的数据集。

数据集的类型

  • 结构化数据:如表格数据,常见于CSV文件或Excel表格中。
  • 图像数据:包括各种图片和相关标签,用于计算机视觉任务。
  • 文本数据:如新闻文章、社交媒体帖子、产品评论等,用于自然语言处理。
  • 时间序列数据:如股票价格、传感器数据,用于时间序列分析。

数据集的优势

  • 免费和公开:大多数数据集是免费的,用户可以自由下载和使用。
  • 高质量和详细描述:数据集通常附带详细的描述和数据字典,帮助用户理解数据。
  • 社区支持:用户可以在Kaggle社区中讨论数据集,分享分析结果和经验。

优秀示例数据集

  • Titanic: Machine Learning from Disaster:经典的机器学习入门数据集。
  • House Prices: Advanced Regression Techniques:用于房价预测的回归分析数据集。
  • MNIST:手写数字识别的数据集,广泛用于图像分类任务。

结语

通过3篇文章的介绍,相信大家已经对如何利用 ChatGPT 和Python库进行数据分析有了更深入的了解。ChatGPT为我们提供了一个便捷的交互式界面,让我们可以轻松地探索和实现这些功能。

让我们一起利用好手中的工具,在数据的海洋中尽情遨游,发现隐藏的价值和洞见吧!

欢迎留言分享你的见解。


精选历史文章,请看这里:

你还在手动排版公众号文章?看看 ChatGPT 怎么轻松搞定 | PPT、MD、CSV 批量转公众号排版

不只是快,新版 ChatGPT 数据分析体验全记录,分享超实用 AI 提示词,助你轻松驾驭复杂数据分析

推荐一个自动生成复杂提示词的模版:思考链(CoT)如何通过分步推理提升AI任务准确性 | 示例详解


继续滑动看下一个
kate人不错
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存